Vsak začetek je težak: avtomatsko učenje prevajanja slovenščine v angleščino
نویسندگان
چکیده
Povzetek Prispevek predstavlja poizkus avtomatskega prevajanja iz slovenskega jezika v angleški na osnovi statističnega strojnega prevajanja. Sistem temelji na zbirki orodij EGYPT, ki je namenjena obdelavi dvojezičnih vzporednih korpusov za strojno prevajanje. Osnova za učenje prevajanja je bil stavčno poravnani korpus IJS-ELAN, ki vsebuje milijon besed, prevodov iz slovenščine v angleščino in obratno; besede obeh jezikov so tudi oblikoslovno označene. V članku predstavimo statistične osnove sistema, zbirko orodij EGYPT in našo implementacijo prevajalnika. Sistem smo učili najprej neposredno na besedah (besednih oblikah) v korpusu, nato pa smo jih, za slovenski jezik, nadomestili z besednimi lemami, s čimer smo se želeli izogniti problemu redkih podatkov. Izvedeno je bilo osnovno vrednotenje sistema, tako za model z besednimi oblikami, kot za tistega z lemami. Vrednotenje smo je izvedli z dvema metodama: SA/TA, ki je različica urejevalne razdalje (edit distance), in omogoča avtomatsko vrednotenje; SSER (subjective sentence error rate), kjer prevode našega sistema ocenjujejo ljudje z razvrščanjem v kategorije. Prispevek zaključimo z načrti za nadaljnje delo.
منابع مشابه
Automatic Construction of Wordnets by Using
WordNet is one of the most valuable lexical resources in the Natural Language Processing community. Unfortunately, the benefits of building a WordNet for the Macedonian language have never been recognized. Due to the time and labor intensive process of manual building of such a lexical resource, we were inspired to develop a method for its automated construction. In this paper, we present a new...
متن کاملPragmatically annotated corpora in speech-to-speech translation
The aim of this paper is to discuss and specify some pragmatic language categories that could be used as attributes in spontaneous speech corpora, especially the corpora used for developing speech-to-speech translation systems components. When developing the speech-to-speech translation, researchers have to deal with spontaneous (conversational) speech phenomena like hesitations, turntaking beh...
متن کاملTesting data dependency for microprocessors with a short SIMD instruction set
Povzetek. V tem članku predstavimo algoritem za ugotavljanje obstoja podatkovne odvisnosti pri vektorizaciji zank za CPE z naborom ukazov SIMD. Znano je, da lahko zaporedje ukazov, ki izvedejo enako operacijo nad sosednjimi operandi v pomnilniku, nadomestimo z enim samim ukazom SIMD, če med temi ukazi ni prave podatkovne odvisnosti, tj. odvisnosti tipa RAW. Vendar se izkaže, da lahko pravo poda...
متن کاملOptimalno vodenje kompenzatorjev jalove moči v industrijskih omrežjih – koncept virtualnega kompenzatorja
Povzetek. V sodobnih industrijskih procesih delež nelinearnih bremen, ki so vir tokovnega harmonskega popačenja, nenehno raste. Hkrati se povečuje tudi število kompenzatorjev jalove moči. Kompenzatorji sami sicer niso vir harmonskega popačenja, lahko pa povzročijo ojačenje harmonikov z ustvarjanjem resonančnih razmer, posledica tega pa je nepravilno delovanje naprav ali celo njihov izpad iz obr...
متن کاملA Software Tool for Semi-Automatic Part-of-Speech Tagging and Sentence Accentuation in Serbian Language
This paper presents a software tool for semi-automatic part-of-speech tagging, annotation of morphological categories and accentuation of texts in Serbian language. The software tool described in this paper is used for very efficient development of tagged text corpora in Serbian language since the accuracy of automatic POS tag and morphological category assignment is 87,2%. This result was obta...
متن کامل